智能论文笔记

Graph-in-Graph Network for Automatic Gene Ontology Description Generation

Fenglin Liu , Bang Yang , Chenyu You , Xian Wu , Shen Ge , Adelaide Woicik , Sheng Wang

分类：人工智能 | 自然语言处理

2022-06-10

基因本体论（GO）是能够在生物医学中实现计算任务的主要基因功能知识基础。 GO的基本元素是一个术语，其中包括一组具有相同功能的基因。 GO的现有研究工作主要集中于预测基因术语关联。很少追求其他任务，例如生成新术语的描述。在本文中，我们提出了一项新颖的任务：GO术语描述生成。该任务旨在自动生成一个句子，该句子描述了属于这三个类别之一的GO术语的功能，即分子功能，生物过程和细胞分量。为了解决此任务，我们提出了一个可以有效利用GO结构信息的图形网络。提出的网络引入了两层图：第一层是GO术语的图形，每个节点也是一个图（基因图）。这样的图形网络可以得出GO术语的生物学功能并生成适当的描述。为了验证拟议网络的有效性，我们构建了三个大规模基准数据集。通过合并所提出的图形网络，可以在所有评估指标中显着提高七个不同序列与序列模型的性能，其中BLEU，Rouge-rouge-相对改善高达34.7％，14.5％和39.1％ L和流星。

translated by 谷歌翻译

O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning

Fenglin Liu , Xuancheng Ren , Xian Wu , Bang Yang , Shen Ge , Yuexian Zou , Xu Sun

分类：自然语言处理 | 计算机视觉

2021-08-05

视频字幕结合了视频理解和语言生成。与图像标题不同，描述具有几乎每个对象的细节的静态图像，视频字幕通常考虑一系列帧和偏置朝向聚焦对象的偏差，例如，保持焦点的对象，无论更改的背景如何。因此，检测和适当地容纳聚焦对象在视频字幕中是至关重要的。为了执行聚焦对象的描述并实现可控制的视频标题，我们提出了一种面向对象的非自动增加方法（O2NA），其执行三个步骤中的标题生成：1）识别聚焦对象并预测其在目标字幕中的位置; 2）生成相关的属性词和这些聚焦对象的关系词来形成标题草案; 3）将视频信息组合以将标题草案精炼到流利的最终标题。由于产生了聚焦的对象并领先于其他单词，因此难以应用逐字的自回归生成过程;相反，我们采用了非自动评级方法。在两个基准数据集，即MSR-VTT和MSVD上的实验证明了O2NA的有效性，这实现了与最先进的结果竞争，但具有更高的多样性和推理速度。

translated by 谷歌翻译

Model Extraction Attacks on Graph Neural Networks: Taxonomy and Realization

Bang Wu , Xiangwen Yang , Shirui Pan , Xingliang Yuan

分类：机器学习

2020-10-24

机器学习模型被证明是面对模型提取攻击的严重威胁，其中服务提供商拥有的训练有素的私人模型可以被假装作为客户端的攻击者窃取。不幸的是，先前的作品侧重于欧几里德空间训练的模型，例如图像和文本，而如何提取包含图形结构的GNN模型，则尚未探索节点功能。本文首次全面调查并开发针对GNN模型的模型提取攻击。我们首先通过考虑由攻击者获得的节点的不同背景知识，将对冲威胁分类为七种类别的威胁建模并将对抗性威胁分类为七个类别。然后我们展示了利用每种威胁中的可访问知识来实现攻击的详细方法。通过评估三个现实世界数据集，我们的攻击显示有效提取重复模型，即目标域中的84％ - 89％的输入具有与受害者模型相同的输出预测。

translated by 谷歌翻译

Casual Conversations v2: Designing a large consent-driven dataset to measure algorithmic bias and robustness

Caner Hazirbas , Yejin Bang , Tiezheng Yu , Parisa Assar , Bilal Porgali , Vítor Albiero , Stefan Hermanek , Jacqueline Pan , Emily McReynolds , Miranda Bogen

分类：计算机视觉 | 人工智能 | 自然语言处理

2022-11-10

Developing robust and fair AI systems require datasets with comprehensive set of labels that can help ensure the validity and legitimacy of relevant measurements. Recent efforts, therefore, focus on collecting person-related datasets that have carefully selected labels, including sensitive characteristics, and consent forms in place to use those attributes for model testing and development. Responsible data collection involves several stages, including but not limited to determining use-case scenarios, selecting categories (annotations) such that the data are fit for the purpose of measuring algorithmic bias for subgroups and most importantly ensure that the selected categories/subcategories are robust to regional diversities and inclusive of as many subgroups as possible. Meta, in a continuation of our efforts to measure AI algorithmic bias and robustness (https://ai.facebook.com/blog/shedding-light-on-fairness-in-ai-with-a-new-data-set), is working on collecting a large consent-driven dataset with a comprehensive list of categories. This paper describes our proposed design of such categories and subcategories for Casual Conversations v2.

translated by 谷歌翻译

1-D Convolutional Graph Convolutional Networks for Fault Detection in Distributed Energy Systems

Bang L. H. Nguyen , Tuyen Vu , Thai-Thanh Nguyen , Mayank Panwar , Rob Hovsapian

分类：机器学习

2022-11-05

This paper presents a 1-D convolutional graph neural network for fault detection in microgrids. The combination of 1-D convolutional neural networks (1D-CNN) and graph convolutional networks (GCN) helps extract both spatial-temporal correlations from the voltage measurements in microgrids. The fault detection scheme includes fault event detection, fault type and phase classification, and fault location. There are five neural network model training to handle these tasks. Transfer learning and fine-tuning are applied to reduce training efforts. The combined recurrent graph convolutional neural networks (1D-CGCN) is compared with the traditional ANN structure on the Potsdam 13-bus microgrid dataset. The achievable accuracy of 99.27%, 98.1%, 98.75%, and 95.6% for fault detection, fault type classification, fault phase identification, and fault location respectively.

translated by 谷歌翻译

Self-supervised Sequential Information Bottleneck for Robust Exploration in Deep Reinforcement Learning

Bang You , Jingming Xie , Youping Chen , Jan Peters , Oleg Arenz

分类：机器学习 | 机器人

2022-09-12

有效的探索对于具有稀疏奖励或高维状态行动空间的环境中的加固学习代理至关重要。基于国家访问的数量，好奇心和熵最大化的最新作品产生了固有的奖励信号，以激励代理人参观新颖的国家进行探索。但是，代理可能会因包含新颖但任务含量信息的传感器输入的扰动而分心，例如由于传感器噪声或背景变化。在这项工作中，我们通过对时间序列观察中的测试和压缩顺序预测信息进行建模和压缩顺序预测信息，介绍了为学习压缩和时间连贯表示的顺序信息瓶颈目标。为了在嘈杂的环境中有效探索，我们进一步构建了内在的奖励，这些奖励基于学习的表示，以捕获与任务相关的状态新颖性。我们得出了顺序信息瓶颈目标的变异上限，以实用优化，并提供了对派生的上限的信息理论解释。我们对一组基于图像的模拟控制任务进行的实验表明，与基于好奇心，熵最大化和信息获得的最新方法相比，我们的方法可实现更好的样品效率，以及对白噪声和自然视频背景的鲁棒性和鲁棒性。。

translated by 谷歌翻译

Retinal Structure Detection in OCTA Image via Voting-based Multi-task Learning

Jinkui Hao , Ting Shen , Xueli Zhu , Yonghuai Liu , Ardhendu Behera , Dan Zhang , Bang Chen , Jiang Liu , Jiong Zhang , Yitian Zhao

分类：计算机视觉

2022-08-23

自动检测视网膜结构，例如视网膜血管（RV），凹起的血管区（FAZ）和视网膜血管连接（RVJ），对于了解眼睛的疾病和临床决策非常重要。在本文中，我们提出了一种新型的基于投票的自适应特征融合多任务网络（VAFF-NET），用于在光学相干性层析成像（OCTA）中对RV，FAZ和RVJ进行联合分割，检测和分类。提出了一个特定于任务的投票门模块，以适应并融合两个级别的特定任务的不同功能：来自单个编码器的不同空间位置的特征，以及来自多个编码器的功能。特别是，由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类，因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影，而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究，已经发布了这些数据集的部分数据集，并已发布了公共访问：https：//github.com/imed-lab/vaff-net。

translated by 谷歌翻译

DenseShift: Towards Accurate and Transferable Low-Bit Shift Network

Xinlin Li , Bang Liu , Rui Heng Yang , Vanessa Courville , Chao Xing , Vahid Partovi Nia

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-20

由于其不断增加的资源需求，在低资源边缘设备上部署深层神经网络是具有挑战性的。最近的研究提出了无倍数的神经网络，以减少计算和记忆消耗。 Shift神经网络是这些减少的最有效工具之一。但是，现有的低位换档网络不如其完整的精度对应物准确，并且由于其固有的设计缺陷，无法有效地转移到广泛的任务中。我们提出了利用以下新颖设计的光泽网络。首先，我们证明低位移位网络中的零重量值既不有用，也不简化模型推断。因此，我们建议使用零移动机制来简化推理，同时增加模型容量。其次，我们设计了一个新的指标，以测量训练低位移位网络中的重量冻结问题，并提出一个符号尺度分解以提高训练效率。第三，我们提出了低变化的随机初始化策略，以提高模型在转移学习方案中的性能。我们对各种计算机视觉和语音任务进行了广泛的实验。实验结果表明，光泽网络明显胜过现有的低位乘法网络，并可以实现全精度对应物的竞争性能。它还表现出强大的转移学习表现，没有准确性下降。

translated by 谷歌翻译

DSTEA: Dialogue State Tracking with Entity Adaptive Pre-training

Yukyung Lee , Takyoung Kim , Hoonsang Yoon , Pilsung Kang , Junseong Bang , Misuk Kim

分类：自然语言处理

2022-07-08

对话状态跟踪（DST）是对话系统的核心子模块，旨在从系统和用户话语中提取适当的信念状态（域槽值）。大多数先前的研究试图通过增加预训练模型的大小或使用其他功能（例如图形关系）来提高性能。在这项研究中，我们建议使用实体自适应预训练（DSTEA）进行对话状态跟踪，该系统在该系统中，句子中的关键实体受到DST模型的编码者的训练。 DSTEA通过四种方式从输入对话中提取重要实体，然后应用选择性知识掩盖以有效地训练模型。尽管DSTEA仅进行预训练而没有直接向DST模型注入更多知识，但它的性能比Multiwoz 2.0、2.1和2.2上最著名的基准模型更好。 DSTEA的有效性通过有关实体类型和不同自适应设置的各种比较实验得到了验证。

translated by 谷歌翻译

Jointly Harnessing Prior Structures and Temporal Consistency for Sign Language Video Generation

Yucheng Suo , Zhedong Zheng , Xiaohan Wang , Bang Zhang , Yi Yang

分类：计算机视觉

2022-07-08

手语是人们表达自己的感受和情感的不同能力的窗口。但是，人们在短时间内学习手语仍然具有挑战性。为了应对这项现实世界中的挑战，在这项工作中，我们研究了运动传输系统，该系统可以将用户照片传输到特定单词的手语视频。特别是，输出视频的外观内容来自提供的用户图像，而视频的运动是从指定的教程视频中提取的。我们观察到采用最先进的运动转移方法来产生语言的两个主要局限性：（1）现有的运动转移工作忽略了人体的先前几何知识。（2）先前的图像动画方法仅将图像对作为训练阶段的输入，这无法完全利用视频中的时间信息。为了解决上述局限性，我们提出了结构感知的时间一致性网络（STCNET），以共同优化人类的先前结构，并具有符号语言视频生成的时间一致性。本文有两个主要贡献。（1）我们利用细粒骨骼检测器来提供人体关键点的先验知识。这样，我们确保关键点运动在有效范围内，并使模型变得更加可解释和强大。（2）我们引入了两个周期矛盾损失，即短期周期损失和长期周期损失，这些损失是为了确保生成的视频的连续性。我们以端到端的方式优化了两个损失和关键点检测器网络。

translated by 谷歌翻译